全面评估多模态模型视频OCR能力,Gemini 准确率仅73.7%
全面评估多模态模型视频OCR能力,Gemini 准确率仅73.7%多模态大模型(MLLM)在静态图像上已经展现出卓越的 OCR 能力,能准确识别和理解图像中的文字内容。MME-VideoOCR 致力于系统评估并推动MLLM在视频OCR中的感知、理解和推理能力。
多模态大模型(MLLM)在静态图像上已经展现出卓越的 OCR 能力,能准确识别和理解图像中的文字内容。MME-VideoOCR 致力于系统评估并推动MLLM在视频OCR中的感知、理解和推理能力。
我在《晚点》公众号读到一篇质量非常高的访谈,嘉宾是 AI 应用创业公司 YouWare 的创始人明超平。YouWare 做的事情正是 Vibe Coding。这篇是我近期读到最为深刻的创始人访谈文章。明超平居然是 95 年的,但认知很深刻,他提到一个有意思的视角:
“下一家估值十亿美元的公司,也许只有一个人。”这是 2025 年红杉 AI 峰会(AI Ascent)下午场的开场白。台下本来窃窃私语的投资人一下安静了:如果这句话成真,硅谷几十年建立的“团队规模=护城河”逻辑,将被彻底改写。
Cursor放出了一个接近1小时的内部团队讨论视频,深度分析了他们用到的技术和思考,使得我们有机会深入了解了 Cursor 团队内部关于训练超人级编程模型的讨论,他们的观点让我重新思考了 AI 辅助编程的未来。这些来自一线研究者和工程师的见解,揭示了当前 AI 编程领域最前沿的挑战和突破方向。
上周,有媒体曝出了美团的 AI 零代码工具 NoCode,这是一款无需编程背景和经验,仅通过自然语言和对话形式即可快速生成应用的工具。 顾名思义,NoCode 可帮助很多人以「零代码」的方式创建个人提效工具、产品原型、可交互页面等。它不仅能生成代码,还可以进行实时预览,局部修改并一键部署,大幅降低了开发的门槛,可以帮助更多人释放创意。
在最新的 LangChain Interrupt 峰会上,AI Fund 创始人吴恩达与 LangChain 联合创始人 Harrison Chase 展开了一场对话。
又有一个 AI Scientist 的论文通过了顶会同行评审。
AI建模界的“作弊神器”真的来了!
快手、京东、小红书、金铲铲……超5万爆款手机应用,刚刚涌进了你的电脑桌面?这个时代的PC流量,还是一片亟待掘金的蓝海。现在,这个月活5亿的巨大市场,腾讯、微软、英特尔、高通,已经下场。「跨端+AI」一合体,你的PC将瞬间化身「超级电脑」!
全球最贵估值科技公司,AI 巨头 Palantir 如何合理定价?